查看原文
其他

CHEM SCI|SyntaLinker:利用带约束Transformer神经网络自动组装药物分子片段

RCDD 智药邦 2022-06-15
2020年7月,中山大学药学院药物分子设计研究中心(RCDD)徐峻团队和广东省再生医学实验室陈红明团队联合,在英国皇家化学会杂志Chemical Science发表题为:SyntaLinker: Automatic Fragment Linking with Deep Conditional Transformer Neural Networks的文章。
该文章报告了采用句法模式识别的深度学习算法自动设计组装药物分子的原创工作——SyntaLinker程序,共同第一作者是研究生杨禹尧和郑双佳,这是RCDD团队自2019年以来在深度学习应用于药物设计领域的第8篇原创工作。
本文是该论文内容的介绍。



发现链接片段的技术是FBDD的关键

近年来,基于片段的药物发现方法(Fragment-based drug discovery,FBDD)获得了许多的关注。

在核磁共振和结构生物学等实验方法的支持下,FBDD经历了几十年的发展已经成熟,有许多成功的案例。然而,如何把FBDD发现的分子片段组装成完整的成药性更好的分子,仍然是尚未完全解决的问题。

目前,分子片段组装的方法主要有片段生长、片段融合和片段联接方法。在这其中,片段联接方法在药物设计实践中应用较多,因为有很多可选择的链接片段 (linkers) ,可以用来产生多样化的分子,有更多的机会适配靶标的结合口袋。

发现合适的链接片段的技术成为基于片段的分子组装的关键。



用机器学习寻找链接片段

然而,理论上计算什么样的分子片段适合做链接片段是困难的。在该研究中,团队尝试通过机器学习的方法,从药物化学数据中找出适合做链接片段的片段的规律。

图1 从分子中“切出”一片子结构作为链接片段


药物分子子结构与功能关系的句法模式识别

如图1所示,对于一个药物分子,分析哪些子结构片段可以作为关键药效片段,哪些可以作为链接其它药效片段的链接片段,这本质上是子结构与功能之间关系的模式识别问题。

在总结药物分子子结构与功能的关系之前,首先需要人为地定义何谓子结构。

关于定义子结构,在传统上,有基于专家经验或者基于人为制订的规则的方法。前者可能有个人偏见,后者难免存在“一刀切”的弊端。

SMILES

分子的结构可以用二维图形表示,也可以用一种叫做化学结构线性编码的符号语言来表示。在化学界,有一种公认的线性编码叫做SMILES (Simplified molecular line entry system),是化学家描述分子结构的严谨的自然语言。

它的语法简单,主要由名词 (如元素符号) 和连词 (如“-”,“=”,“#”分别代表单键、双键、三键) 还有其他关于分子拓扑结构的修饰词符号组成。例如,硝基苯的SMILES预计就是:c1c(N(=O)=O)cccc1。

一个分子可以用SMILES的一句话表示,一组分子 (一般称为化合物库, a compound library) 可以表示为一组SMILES的句子,即一篇文章。一组具有共同特性的分子,就相当于具有相同的主题思想的由句子组成的文章。

句法模式识别 (syntactic pattern recognition),就是来分析文章中哪些语素 (句子中符号的组合,相当于分子的子结构) 与文章的主题思想的关联,从而找到句子中的关键词与主题思想的关系。因此,可以用句法模式识别技术为结构与分子特性的关系建模。这种方法最重要的优点是避免了前述述传统方法的弊端。

作者将该方法命名为SyntaLinker,意思是说采用句法模式识别技术,自动寻找能够将分子片段自动组装起来的链接片段。



SyntaLinker的分子组装原理

为了研究什么样的分子子结构可以充当链接片段,作者用分子对匹配切割算法 (MMPs, Matched Molecular Pairs) 将一个分子拆解成两个终端片段和一个连接段,从ChEMBL数据库中提取了70多万条分子子结构片段用于建立深度学习模型。

该深度学习模型要解决的问题是这样的:给定始点和终点的分子片段、片段之间的间隔空间,模型根据从ChEMBL提取的子结构片段数据,求出所有可能的链接片段,生成符合条件的将两个端点片段组装起来的分子。

该问题可以化成自然语言处理中的句子填空 (Sentence Completion) 问题,通过改造机器翻译的深度约束变换神经网络 (deep conditionaltransformer neural networks) 算法SyntaLinker加以解决 (图2)。

图2 SyntaLinker采用深度约束变换神经网络模型实现两个片段的分子组装

SyntaLinker的本质是多层注意力网络学习模型,它首先建立端点的两个片段子结构与给定约束条件的映射 (映射可以是多重的); 然后根据起始片段的上下文信息,在连接点“.”处将两个片段组装起来,逐步填充连接段使端点片段最终被连接在一起,完成分子的生成。



SyntaLinker的特点与价值

SyntaLinker属于基于配体的药物设计,它是在分子拓扑层面上的操作,不必搜索三维构象空间。通过分析给定起始片段对中间的结构片段拓扑数据,建立在连接点的最短键长距离约束条件下的片段组装模式规则。

图3 应用前景

作者证明,SyntaLinker可以用于组装在不同活性口袋中的已与靶标对接的分子片段、优化先导化合物的骨架、或实现先导化合物的骨架跃迁 (图3)。此项工作的推广可望加速药物原创发现的效率。

本文原载于美篇 雅歌牧云 有改动) 

参考资料

原文链接:doi.org/10.1039/D0SC03126G

RCDD团队2019年以来在深度学习应用于药物设计领域的其它7篇论文链接如下:

pubs.acs.org/doi/10.1021/acs.jcim.9b00929

www.nature.com/articles/s42256-020-0152-y

pubs.acs.org/doi/10.1021/acs.jcim.9b00949

pubmed.ncbi.nlm.nih.gov/30669836/

pubs.acs.org/doi/10.1021/acs.jcim.8b00672

pubs.rsc.org/en/content/articlelanding/2019/ra/c8ra08915a

link.springer.com/article/10.1186/s13321-019-0328-9

----------- End -----------




感兴趣的读者,可以添加小邦微信(zhiyaobang2020)加入读者实名讨论微信群。添加时请主动注明姓名-企业-职位/岗位 或姓名-学校-职务/研究方向






历史文章推荐    


Drug Discov Today综述|分子从头设计和生成模型
岳石怡|人工智能+分子生成
IBM的AI系统通过深度生成模型和分子动力学模拟加快抗生素发现
Nat Commun|AI结合基因表达特征,从头生成类苗头化合物
Transformer-CNN:用于 QSAR 建模和解释的先进工具
CHEM SCI|分子Transformer模型预测酶促反应
CHEM SCI|基于约束贝叶斯优化,采用变分自编码器进行自动化学设计
百图生科宋乐|高通量干湿实验闭环是生物计算的未来
Science|让机器学习值得信赖
Drug Discov Today|FDA童伟达:基于AI的语言模型为药物发现和开发提供动力


您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存